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词 向 量 与 LDA 相 融 合 的 短文 本 分 类 方法 


张 群 王 红 军 王 伦 文 
(中 国人 民 解 放 军 电子 工程 学 院 


摘要 : 【 目的 ] 针对 短文 本 主题 聚焦 性 差 以 及 严重 的 特征 稀 琉 问题 ,设计 一 种 基于 词 向量 与 LDA 主题 模型 相 融 
合 的 短文 本 分 类 方法 。[ 方法 ] 从 * 词 ”粒度 及 “文本 ”粒度 层面 同时 对 短文 本 进行 精细 语义 建 模 ,首先 基于 
Word2Vec 训练 词 向 量 并 通过 相 加 平均 法 合成 “ 词 "粒度 层面 的 短文 本 向 量 , 基于 吉 布 斯 采样 法 训练 LDA 主题 模 
型 并 根据 主题 概率 最 大 原则 对 短文 本 进行 特征 扩展 , 然后 基于 词 向 量 相似 度 计算 扩展 特征 权重 得 到 “文本 ”粒度 
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层面 的 短文 本 向 量 , 最 后 通过 向 量 拼 接 构 建 词 向 量 与 LDA 相 融 合 的 短文 本 表示 模型 , 在 此 基础 上 通过 最 近邻 分 


类 算法 完成 短文 本 分 类 。[ 结果 】 相 比 传统 的 基于 向 量 空间 模型 、 


基于 词 向 量 、 基 于 LDA 主题 模型 这 三 种 基于 


单一 模型 的 分 类 方法 , 词 向 量 与 LDA 相 融 合 的 分 类 方法 准确 率 、 召 回 率 、Fi 值 均 有 提升 , 分 别 至 少 提升 3.7%， 


4.1% 和 3.9%。[ 局 限 】 仅 应 用 于 最 近邻 分 类 器 ， 尚 未 推广 应 用 到 朴素 贝 叶 基 


和 支持 向 量 机 等 多 种 不 同 的 分 类 器 。 


【 结论 】 基 于 词 向 量 与 LDA 相 融 合 的 短文 本 表示 模型 进行 分 类 ， 能 有 效 克 服 短文 本 的 主题 聚焦 性 差 及 特征 稀 玻 


性 问题 ， 提 高 短文 本 分 类 性 能 。 
关键 词 : 短文 本 分 类 ” 词 向 量 LDA 主题 模型 
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移动 终端 的 智能 化 催生 了 移动 互联 网 的 飞速 发 
展 。 为 适应 移动 用 户 阅 读 习 惯 , 移动 互联 网 内 容 更 多 
以 短文 本 形式 呈现 , 例如 微 博 和 即时 推送 新 闻 等 ， 如 
何 对 海量 短文 本 内 容 进 行 自动 分 类 已 成 为 研究 者 关注 
的 热点 问题 。 

在 过 去 几 十 年 里 , 国内 外 学 者 提出 及 改进 了 一 系 
列 经 典 的 机 器 学 习 算 法 ,如 k 近邻 分 类 (k-Nearest 
Neighbors，k-NN) 1、 朴素 贝 叶 斯 分 类 (Naive Bayes,， 
NB) 外 和 支持 向 量 机 (Support Vector Machine，SVMDDl 
等 ， 并 将 其 成 功 应 用 于 文本 分 类 领域 , 取得 了 比较 满 
意 的 效果 。 然 而 相 比 普通 长 文本 , 新 兴 的 移动 互联 网 
短文 本 具有 内 容 长 度 短小 、 信 息 描 述 能 力 弱 、 主 题 分 
散 等 特点 ， 使 得 以 上 经 典 文本 分 类 方法 应 用 于 该 领域 
时 将 面临 严重 的 特征 稀 玖 问题 外 ， 导致 短文 本 分 类 效 
果 并 不 理想 。 


了 中 


文本 数据 表示 对 于 文本 分 类 至 关 重 要 ,数据 表示 
的 好 坏 直接 影响 分 类 效果 。 传 统 文本 分 类 算法 通常 基 
于 向 量 空间 模型 (Vector Space Model, VSM), 通过 特 
征 词 及 权 值 构成 的 向 量 表示 文本 数据 后 。 该 方法 忽略 
了 词语 间 的 语义 关系 , 无 法 体现 文本 深层 次 的 主题 信 
息 , 存在 数据 高 维 稀疏 问题 , 尤其 是 在 表示 短文 本 时 ， 
语义 缺失 及 高 维 稀 玖 问题 变 得 更 为 严重 。 近 年 来 针对 
这 一 问题 的 研究 主要 有 三 个 方向 。 一 些 学 者 引入 外 部 
知识 库 ( 如 搜索 引擎 、 维 基 百 科 和 知 网 等 ) 对 文本 进行 
语义 特征 扩展 以 丰富 词语 间 语 义 关 系 人 1。 这 些 方 法 能 
一 定 程 度 上 绥 解 稀 玖 性 , 其 局 限 性 在 于 严重 依赖 外 部 
知识 库 的 质量 ， 对 于 知识 库 中 未 收录 的 主题 概念 无 能 
为 力 ， 且 计算 量 大 , 耗 时 长 ,因此 应 用 于 主题 分 散 的 
短文 本 效果 一 般 。 另 有 部 分 学 者 通过 将 原始 高 维特 征 
词 空间 映射 到 低 维 的 潜在 语义 空间 或 主题 空间 , 挖掘 
文本 潜在 的 语义 结构 。 如 洪 在 语义 分 析 方 法 (Latent 
Semantic Analysis,， LSA) 将 文本 表示 为 低 维 潜在 语义 
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空间 的 语义 向 量 包 ， 降 维 去 噪 的 同时 改善 稀 玻 性 , 但 
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定 。 依 据 分 布 假说 理论 ,一 种 基于 神经 网 络 的 词 向 量 


是 降 维 过 程 可 能 带 来 分 类 受 损 问题 且 该 语义 空间 每 个 
维度 的 语义 含义 并 不 明确 。 相 比 LSA 方 法 , LDA 主题 
模型 (Latent Dirichlet Allocation, LDA) 将 文本 表示 为 
其 隐 含 主题 的 概率 分 布 品 ， 能 极 大 改善 文本 高 维 稀 玻 
性 , 克服 LSA 方法 分 类 受 损 问题 的 同时 每 个 主题 维度 
也 具有 可 解释 性 ， 因 此 受到 广泛 应 用 。 文 献 [10-11] 直 
接 在 LDA 主题 维 上 进行 文本 分 类 , 但 由 于 短文 本 主题 
聚焦 性 差 ,该 方法 对 于 改善 短文 本 的 稀 玻 性 效果 有 限 ; 
文献 [12-14] 基 于 LDA 主题 模型 对 短文 本 进行 特征 扩 
展 , 相 比 于 单纯 直接 应 用 LDA 的 方法 有 一 定 的 效果 提 
升 。 以 上 的 VSM、LSA 和 LDA 模型 均 为 直接 导出 短 
文本 向 量 以 表示 短文 本 , 属于 “文本 ”粒度 层面 的 模 
型 。 最 新 研究 考虑 从 “ 词 * 粒 度 层面 进行 文本 建 模 从 而 
更 精细 地 表达 语义 , 首先 导出 词 的 向 量 表 示 , 然后 将 词 
向 量 (Word Embedding) 合 成 短文 本 向 量 品 。 这 种 方法 有 
效 解决 了 短文 本 主题 分 散 和 聚焦 性 差 的 问题 ， 其 局 限 
性 在 于 简单 有 效 的 词 向 量 合成 方法 还 有 竺 研究 ， 如 文 
献 [16-17] 通 过 神经 网 络 构建 词 向 量 的 短文 本 合成 模 
型 ， 具 有 较 高 的 复杂 度 。 

在 以 上 分 析 的 基础 上 , 本 文 将 词 向 量 与 LDA 有 机 
融合 ， 提 出 一 种 新 的 短文 本 分 类 方法 ， 从 “ 词 ” 粒 度 及 
“文本 ”粒度 层面 同时 进行 短文 本 建 模 ,， 以 解决 短文 本 
特征 稀 玖 问题 及 主题 附 焦 性 差 的 问题 。 通 过 简单 直接 
的 相 加 平均 法 合成 “ 词 " 粒 度 层面 的 短文 本 向 量 , 避免 


了 复杂 的 词 向 量 合成 过 程 ; 同时 在 进行 “文本 ”粒度 层 
面 建 模 时 ,并非 直接 应 用 LDA 模型 将 短文 本 映射 到 主 
题 维 , 而 是 基于 LDA 主题 概率 最 大 原则 对 短文 本 进行 
特征 扩展 ,并 基于 词 向 量 相 似 度 计算 扩展 特征 权重 ， 
从 而 构建 词 向 量 与 LDA 相 融 合 的 短文 本 表示 模型 ; 另 
外 在 训练 词 向 量 及 LDA 模型 时 并 不 依赖 已 标注 数据 ， 
仅 在 训练 分 类 器 时 需要 小 规模 的 已 标注 数据 , 属于 一 
种 半 监 督学 习 方 法 "1。 


2 词 向 量 训练 及 LDA 建 模 


2.1 基于 Word2Vec 的 词 向 量 训 练 

词 向 量 是 词语 的 一 种 数学 表示 方法 , 向量 的 每 个 
维度 代表 一 个 语义 特征 ,向 量 间 的 距离 或 相似 度 能 够 
反映 词语 间 的 语义 相似 性 。 分 布 假说 理论 
(Distributional Hypothesis) 表 明 词 语 语 义 由 其 上 下 文 决 
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获取 方法 受到 广泛 研究 , 该 方法 通过 对 目标 词 的 上 下 
文 及 目标 词 与 其 上 下 文 的 关系 进行 建 模 ,能 够 获取 包 
含 丰 富 语义 的 低 维 稠密 的 词 向 量 。Bengio 等 提出 神经 
网 络 语言 模型 (Neural Network Language Model， 
NNLM), 词 向 量 作 为 一 种 副产品 ,是 在 训练 该 语言 模 
型 的 同时 得 到 的 0。NNLM 为 一 个 三 层 前 馈 神经 网 络 
结构 ， 如 图 1 所 示 D。 
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图 1 神经 网 络 语言 模型 结构 


NNLM 结构 图 中 , wi 为 目标 词 , 目标 词 的 上 下 文 为 
一 个 词 序 列 ， 即 context= {fwi ni;Wi_2, Wi_1} 。 
NNLM 的 输入 层 通过 一 个 矩阵 C 将 上 下 文 序列 中 的 词 
映射 为 词 向 量 , 然后 将 词 向 量 顺序 拼接 作为 整个 模型 
的 输入 ， 如 下 所 示 中 |。 


X={C(Wint), ,CCWi.2), C(Wi1)} (1) 
隐藏 层 与 输出 层 分 别 如 下 Ml。 

h = tanh(b + Hx) (2) 

y=d+Wx+Uh G) 


其 中 , tanh 为 隐藏 层 激活 函数 , H 为 输入 层 到 隐藏 
层 的 权重 矩阵, U 为 隐藏 层 到 输出 层 的 权重 矩阵 , W 为 
输入 层 到 输出 层 的 直 连 边 权 重 矩 阵 (通常 忽略 ) b、d 
为 模型 偏 置 项 。 模 型 最 终 需 通过 Softmax 函数 将 输出 
层 y 归 一 化 为 目标 词 的 概率 分 布 , 如 下 所 示 ”。 


exp(y(wi)) 
POWi Win Wi WI) = (4) 


PW) 
最 后 , 模型 通过 迭代 优化 , 在 使 公式 (4) 最 大 化 的 过 程 
中 训练 出 模型 参数 ,其 中 包括 词 向 量 参数 矩阵 C， 从 而 获 
得 词 向 量 。 
NNLM 的 计算 量 集中 在 公式 G) 中 的 隐藏 层 到 输出 
层 的 矩阵 乘法 Uh 中 ; 另外 , 公式 (中 ,|Y| 为 词汇 表 大 小 ， 


因此 当 词 汇 表 很 大 时 Softmax 函数 计算 非常 耗 时 。 

在 NNLM 的 基础 上 , 本 文 基 于 Word2Vec 进行 词 
向 量 训练 .Word2Vec 是 基于 Mikolov 等 提出 的 CBOW 
(Continuous Bag-of Words) 和 Skip-gram 模型 开放 的 一 
款 词 向 量 训 练 工具 P0。CBOW 及 Skip-gram 这 两 种 模 
型 类 似 于 NNLM, 区 别 在 于 NNLM 是 以 训练 语言 模型 
为 目标 而 间接 获得 了 词 向 量 , 而 CBOW 和 Skip-gram 
模型 的 直接 目的 即 为 获取 词 向 量 。 因 此 Word2Vec 在 
NNLM 的 基础 上 做 了 以 下 简化 与 改进 : 

(1) 去 掉 隐 藏 层 , 避免 了 公式 (3) 中 复杂 的 矩阵 乘法 运 
算 Uh。 

(2) NNLM 在 输入 层 采 用 如 公式 () 所 示 的 词 向 量 
拼接 法 , 而 Word2Vec 的 CBOW 模型 采用 向 量 相 加 求 
平均 法 降低 了 运算 复杂 度 ， 如 下 所 示 叫 。 


x= 2 一 G) 


其 中 ，c= {Wi (nD)/2" wiDDWi win/2， 
指 CBOW 中 目标 词 wi 前 后 各 人 n-D/12 个 词 , 即 wi 的 
上 下 文 。 相 比 NNLM 仅 采 用 前 @Q-D 个 词 作 wi 的 上 下 
文 , Word2Vec 更 具有 上 下 文 完 备 性 。 

CBOW 与 Skip-gram 不 同 之 处 在 于 , CBOW 是 通 
过 上 下 文 预测 目标 词 而 Skip-gram 是 通过 目标 词 预 讽 
上 下 文 。 CBOW 与 Skip-gram 结构 图 分 别 如 图 2、 图 3 
所 示 踢 。 
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四 矩阵 C_ 1 
Wo-D2 Wi Wirl Wirm-1y2 
图 2 CBOW 模型 结构 
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图 3 Skip-gram 模型 结构 


另外 , 针对 NNLM 输出 层 Softmax 枉 数 计算 复杂 
度 大 的 问题 Word2Vec 采用 两 种 算法 进行 优化 : 结合 
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霍 夫 曼 编 码 的 层次 Softmax 算法 中 及 负 采 样 (Negative 
Sampling) 技 术 中 1。 

本 文 基于 Word2Vec 训练 词 向 量 用 于 短文 本 分 类 
任务 , 发 现 语 料 数据 集 规模 及 模型 的 选择 会 影响 词 向 
量 质量 进 而 影响 短文 本 分 类 效果 。 针 对 这 两 个 方面 ， 
总 结 以 下 经 验 用 于 指导 训练 词 向 量 : 

(1) 语 料 集 规模 在 200MB 以 上 时 , CBOW 模型 优 
于 Skip-gram 模型 , 在 100MB 以 下 则 相反 , 在 100MB- 
200MB 之 间 两 模型 表现 差别 不 明显 。 

(2) CBOW 模型 在 输入 层 采用 词 向 量 相 加 平均 法 代 
替 NNLM 中 的 词 向 量 拼接 法 , 降低 了 计算 复杂 度 , 但 
忽略 了 词 序 信 息 ; 本 文 尝试 在 CBOW 模型 的 基础 上 仍 
采用 词 向 量 拼 接 法 引入 词 序 信息 , 但 结果 表明 修改 后 
的 模型 与 原 CBOW 模型 相 比 性 能 表现 无 明显 差别 。 
2.2 ”基于 吉 布 斯 采样 的 LDA 建 模 

LDA 主题 模型 是 一 个 "文档 -主题 - 词 ”的 三 层 贝 叶 
斯 概率 生成 模型 ， 其 通过 模拟 文本 的 生成 过 程 ,将 文 
本 建 模 为 混合 主题 上 的 概率 分 布 , 将 主题 建 模 为 混合 
词 上 的 概率 分 布 ， 模 型 如 图 4 所 示 巴 。 


ORG K 
@ we 


图 4 LDA 图 模型 


图 4 中 符号 含义 如 下 : M 表示 总 文本 数 ，N 表示 
一 篇 文本 中 的 总 词 数 , K 表示 文本 集 隐 含 主题 数 ; 6 为 
文本 -主题 分 布 和 矩阵，G@ 为 主题 - 词 分 布 和 矩阵 ，6 与 中 
均 服 从 狄 利克 雷 分 布 (Dirichlet Distribution)，Q 为 6 的 
超 参数 ，B 为 @ 的 超 参数 ; w 表示 词 ，z 为 w 所 属 的 
主题 。 

令 dm = (Wm Wm2,""* WmN) 表示 第 m 篇 文本 ， 
Zm = (Zml;Zm2，“…,Zmn) 中 分 量 表示 dan 中 每 个 词 对 应 
所 属 的 主题 ，D=(di,d,,…,dm) 表示 整个 文本 集 ， 
ZZ=(z1,z,,…,Zm) 中 分 量 表示 DD 中 每 个 文本 对 应 的 主 
题 问 量 。 基 于 网 4, LDA 模型 生成 过 程 描述 如 下 : 

(1) 对 于 第 m 篇 文本 d ,根据 8 服从 参数 为 a 的 
Dirichlet 分 布 (0,， ~ Dir(o) ), 确定 一 个 主题 分 布 09, ; 

(2) 对 于 第 n 个 词 ww , 根据 z 服 从 9 的 多 项 分 布 
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(zan ~ Mult(9) ), 为 wan 确定 一 个 主题 编号 Zn ; 

G) 根 据 @ 服从 参数 为 B 的 Dirichlet 分 布 
(Gu ~ Dir(B) ), 确定 一 个 主题 - 词 分 布 矩 阵 ,同时 
根据 步 又 C2) 确 定 的 zm 为 wm 确定 一 个 词 分 布 四。 ; 

(根据 词 wm 服从 @。 的 多 项 分 布 
(wm ~ Mult(®。 )), 生成 词 wmn; 

(5) 遍历 文本 中 NN 个 词 , 重复 步骤 (2)- 步 骤 (4)， 生 
成 dy; 

(6) 遍历 文本 集中 M 篇 文本 , 重复 步骤 (1)- 步 又 (5)， 
生成 整个 文本 集 D。 

LDA 模型 的 目标 是 为 文本 集 D 中 的 每 个 词 分 配 
一 个 潜在 主题 ,从 而 估计 出 模型 中 的 文本 -主题 分 布 
和 矩阵 8 与 主题 - 词 分 布 矩阵 @@ ,由 此 需要 计算 如 公式 
(6) 所 示 的 后 验 概率 中 。 


p(Z,D) 
> ,p(Z.D) 

其 中 分 母 计算 难度 非常 大 ,为 避免 直接 计算 公式 
(6), 一 种 简单 有 效 的 方法 是 采用 吉 布 斯 采样 (Gibbs 
Sampling) 算 法 。 

吉 布 斯 采样 算法 中 "是 一 种 特殊 的 基于 马 氏 链 的 
蒙特 卡 洛 方法 (Markov Chain Monte Carlo，MCMC)， 
通过 对 词 的 主题 采样 生成 马 氏 链 , 用 p(z; |z_;,D) 念 
真 近似 p(Z|D) 。p(z; |z_;,D) 表示 对 于 词汇 表 中 V 的 
一 个 词 t 其 当前 采样 的 主题 z 依 赖 于 其 他 时 刻 采样 的 


p(Z1D) = (6) 


> \ HE v7 二 > 人 pd 
主题 z_; 。p(zi |z_i,D) 通过 吉 布 斯 采样 公式 得 到 请 。 
(t) (k) 
nr ; 十 Di ;十 OQL 
p(z; =k|z ji,D) ki th es (7) 


[Ea +p|-1 [Zoog+o|-1 

其 中 ,|V| 表 示 词汇 表 V 的 大 小 ; ntb 表示 词 + 采 样 为 
主题 k 的 总 次 数 ，nf9 ; 表示 词 + 在 其 他 时 刻 采样 为 主题 k 
的 次 数 :ng 表示 文本 di 中 采样 为 主题 k 的 总 词 数 ， 
ng ;表示 文本 dn 中 在 其 他 时 刻 采样 为 主题 K 的 词 数 。 

主题 采样 完成 后 ,基于 采样 得 到 的 样本 可 以 估计 出 
模型 的 文本 -主题 分 布 矩 阵 9 及 主题 - 词 分 布 矩阵 四 ， 公 
式 如 下 2。 


0 i (8) 
Dm +o) 
(t) 
nk +B 
Pot = TV 9) 
Fn +p) 
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3 词 向 量 与 LDA 结合 的 半 监 督 分 类 方法 


3.1 方法 流程 架构 描述 

LDA 主题 模型 从 "文本 ”粒度 层面 对 文本 建 模 , 在 
传统 长 文本 分 类 任务 中 取得 不 错 效果 , 但 应 用 于 短文 
本 分 类 时 效果 很 差 ; 词 向 量 属于 “ 词 "粒度 层面 的 模型 ， 
在 词语 的 语义 相似 度 计算 方面 表现 优越 , 但 应 用 于 文 
本 级 别 的 语义 表示 还 有 竺 研究。 短文 本 介 于 “ 词 ” 粒 度 
与 "文本 ”粒度 之 间 , 鉴于 此 , 本 文 提出 一 种 词 向 量 与 
LDA 相 融 合 的 短文 本 分 类 方法 ， 从 “ 词 "粒度 层面 与 
“文本 ”粒度 层面 同时 对 短文 本 建 模 ; 另外 , 词 向 量 及 
LDA 模型 的 训练 是 在 大 规模 无 标注 数据 集 上 完成 的 ， 
仅 分 类 需 的 训练 需要 小 规模 的 已 标注 训练 数据 ， 属 于 
半 监 督学 习 方法 。 方 法 流程 如 图 5 所 示 。 


天 预 模 站 小 规模 训 比 

规模 小 规 英 训 练 新 数据 

数据 理 收集 、 ,一 
训练 问 向 届 。 [ 久 练 DA 模型 】 [ 巴 处 弄 | 。 [ 正 处 理 


相 加 平均 合成 法 | | 特征 权 各 


计算 | | 特征 扩展 


短文 本 向 量 d | 短文 本 向 量 d" 
J 词 疝 量 与 LDA 结 合 
向 量 拼接 的 短文 本 分 类 模型 d 
ee 型 


(经济 ) 全 一 


< 一 一 
图 5 词 向 量 与 LDA 融合 的 半 监 督 分 类 方法 流程 架构 


该 方法 分 为 4 个 步骤 , 描述 如 下 

(1) 构建 一 个 大 规模 无 标注 数据 集 及 一 个 小 规模 
已 标注 数据 集 ， 并 进行 数据 预 处 理 ; 

(2) 在 大 规模 无 标注 数据 集 上 训练 词 向 量 及 LDA 
主题 模型 ; 

(3) 在 小 规模 已 标注 数据 集 上 融合 词 向 量 与 LDA 
对 短文 本 建 模 ; 

(4) 构建 一 个 k 近邻 分 类 器 (k-NN) 对 新 的 短文 本 
进行 分 类 , 测试 本 文 方法 的 分 类 效果 。 
3.2 ”数据 集 构 建 及 预 处 理 

数据 集 的 构建 对 于 文本 分 类 至 关 重 要 。 分 类 任务 
属于 有 监督 学 习 , 需要 大 量 已 标注 数据 保证 学 习 的 准 
确 性 。 本 文 分 类 方法 属于 半 监 督学 习 , 仪 需 要 小 部 分 
已 标注 数据 ， 有 效 降 低 了 人 工 数据 标注 的 工作 量 。 需 


要 构建 一 个 大 规模 无 标注 数据 集 D 及 一 个 小 规模 有 标 
注 数 据 集 D'， 对 两 个 数据 集 有 以 下 要 求 : 

(1) 数据 集 应 符合 正常 的 语言 表达 习惯 ; 

(2) 数据 集 所 包含 的 领域 应 与 分 类 任务 一 致 ; 

(3) 数据 集 应 最 大 程度 地 包含 并 均衡 分 布 于 领域 
的 各 个 潜在 主题 ; 

(4) 大 规模 无 标注 数据 集 应 包含 足够 多 的 领域 及 
主题 相关 词 。 

数据 集 预 处 理 主要 包括 中 文 分 词 、 停 用 词 过 滤 等 
操作 。 对 于 小 规模 已 标注 训练 数据 集 还 需 采 用 六 统计 
进行 特征 选择 。X 统计 值 反映 了 词语 t 与 数据 集 类 别 c 
的 主题 相关 性 ， 如 下 所 示 站 。 
(A:D-B.C) 
(A+B):(C+D) 


公式 (10) 中 各 参数 含义 如 表 1 所 示 。 
表 1 双 统 计 值 参数 含义 表 


X2(boc) = (10) 


包含 词语 t 不 包含 词语 t 
属于 c 类 A C 
不 属于 c 类 B D 


3.3” 词 向 量 与 LDA 融合 的 短文 本 表示 模型 
在 大 规模 无 标注 数据 集 上 训练 词 向 量 及 LDA 主 
题 模型 ， 然 后 融合 词 向 量 与 LDA 对 短文 本 建 模 。 
基于 Word2Vec 训练 词 向 量 ， 结果 记 为 : 
X= {C(t), C(t2),%, C(tiv)} (11) 
其 中 ,4 表示 词汇 表 V 中 第 n 个 词 ，C(t) 为 tn 的 
词 向 量 表 示 。 
基于 吉 布 斯 采样 训练 LDA, 输出 文件 包括 文本 - 
主题 分 布 矩 阵 6 、 主 题 - 词 分 布 和 矩阵 @ 及 主题 词 文件 。 主 
题词 文件 显示 了 每 个 潜在 主题 下 概率 最 大 ( 即 主题 相关 性 
最 强 ) 的 前 n 个 词 ， 主 题词 文件 示例 如 表 2 所 示 。 
表 2 主题 词 文件 示例 
主题 编号 主题 词 及 其 概率 值 
教育 0.020447 ”学 校 0.017544 学 生 0.015859 


Topic 0th: 
人 0.013244 教师 0.012354 
比赛 0.020663 ”中 0.012811 选手 0.011491 
Topic lth: Ny 
中 国 0.011119 ”亚运 会 0.010645 
中 0.009706 美国 ”0.007455 美军 0.006404 
Topic 2th:  _n ， 
武器 0.006090 系统 0.006072 
i 软件 0.009364 ”函数 ”0.006048 系统 0.005572 
1 
bE 程序 0.004344 ” 过程 0.004271 
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词 向 量 与 LDA 结合 的 短文 本 建 模 方 法 具体 实施 
步骤 描述 如 下 : 
输入 : 人 小 规模 已 标注 的 短文 本 训练 数据 集 D'; 
@ 大 规模 无 标注 数据 集 D 上 训练 得 到 的 词 向 量 ; 
@ 国 大 规模 无 标注 数据 集 D 上 训练 得 到 的 LDA 模型 。 
输出 : 训练 数据 集 D' 的 结合 词 向 量 与 LDA 的 表示 模型 。 
(1) 词 向 量 合成 
采用 向 量 相 加 平均 法 得 到 D' 的 基于 词 向 量 合 成 的 
短文 本 表示 模型 ， 如 下 所 示 。 


du = 》， 


/ 
m 
wijedm 


Cw (12) 


其 中 ，d。 表示 D' 中 第 m 篇 短文 本 的 基于 词 向 量 合 
成 的 短文 本 表示 , wi 为 其 中 的 词 , Nm 为 词 数 ，C(wi) 为 词 
wi 的 词 向 量 。 

(2) 基于 LDA 进行 特征 扩展 

将 D' 中 的 每 个 词 与 LDA 模型 的 主题 - 词 分 布 矩 阵 
G@ 相 匹 配 , 选择 该 词 所 属 的 概率 最 大 的 主题 zuw ; 然后 
将 za 匹配 LDA 模 型 的 主题 词 文件 , 选择 主题 zu 下 的 
前 r 个 词 作为 该 词 的 扩展 特征 , 则 D' 基于 LDA 的 特征 扩 
展 模 型 如 下 : 


LA 
dm ={fwnl(cll cclr) wmny(cnlcn2 cnr) (13) 


其 中 ，d。 表示 D' 中 第 m 篇 短文 本 的 基于 LDA 的 特 
征 扩 展 模型 ，wm 为 这 篇 短文 本 中 的 第 n 个 词 ， 
(Cn15Cn2;…sCnr) 为 Wn 的 rf 个 扩展 特征 。 

(3) 基于 词 向 量 的 扩展 特征 权重 计算 

公式 (13) 中 , 采用 基于 词 频 及 逆向 文档 频 (Term 
Frequency-Inverse Document Frequency, TFIDF) 的 方法 
计算 被 扩展 特征 wi 的 权重 , TFIDF 权重 反映 了 特征 词 
表征 文本 的 能 力 吕 ,公式 如 下 。 


)= TEFCwnn) :IDF(wan) 
六 | > [TF(wia): IDF(wma)T 


m 


weight(wnn ) = TFIDF(wW (14) 


其 中 ，TF(wmm) 表示 ww 的 归 一 化 词 频 ， 
IDF(ww) 表示 wa 的 闭 向 文档 频 ， 分 母 部 分 是 对 
TFIDF 权重 的 归 一 化 操作 。 

对 于 公式 (13) 中 的 扩展 特征 cu ， 其 权重 与 两 个 因 


素 有 关 : cm 所 属 的 主题 在 文本 中 的 重要 性 ; cmw 与 其 
所 属 主题 的 相关 度 。 由 于 cuw 所 属 主题 是 由 被 扩展 特征 
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wm 根据 概率 最 大 原则 匹配 LDA 的 主题 - 词 分 布 矩 阵 
得 到 的 , 因此 认为 ww 的 TFIDF 权重 代表 c, 所 属 的 
主题 在 文本 中 的 重要 性 ，ci 与 wm 的 语义 相关 度 代 
表 ci 与 其 所 属 主题 的 相关 度 。ci 与 wm 的 语义 相关 
度 通过 计算 cu 与 wi 的 词 向 量 的 余弦 值得 到 ， 记 为 
sim(c ww)， 如 下 : 


) = — Cnr) CCW) 
YY IC(ca)|xICw 


sim(Cnr,W 


(15) 


mn)| 
其 中 ，C(cu) 与 CC(wm) 分 别 为 cu 与 wm 的 词 
向 量 表示 。 
综 上 , 基于 词 向 量 的 扩展 特征 权重 计算 方法 如 下 : 
weight(cy) = TFIDF(w )x sim(Cnr ,Wimn ) (16) 
(4) 向 量 拼 接 
由 于 一 个 词 可 能 含有 多 重 语义 ,因此 对 于 步 又 (2) 
中 的 特征 扩展 模型 a,” ， 可 能 会 出 现 同 一 扩展 特征 多 
次 出 现 的 情况 , 这 时 需 合并 相同 的 扩展 特征 , 并 将 其 
权重 相 加 作为 合并 后 的 扩展 特征 的 权重 。 最 终 , 将 此 
特征 扩展 模型 d" 与 步骤 (1) 中 的 基于 词 向 量 合成 的 模 
型 4 进行 顺序 拼接 ,得 到 词 向 量 与 LDA 结合 的 短文 
本 表示 模型 ， 如 下 : 
dn = {dn ;dm } (17) 
其 中 ,“;” 表 示 向 量 顺序 拼接 操作 ，d, 为 训练 集 
D' 中 第 m 篇 短文 本 的 词 向 量 与 LDA 结合 的 向 量 表示 。 
3.4 ”构建 k 近邻 分 类 器 
k 近邻 分 类 (k-NN) 算 法 作为 一 个 经 典 的 机 带 学 习 
算法 , 应 用 于 文本 分 类 领域 具有 较 高 的 稳定 性 ,其 原 
理 简 单 直接 : 将 新 数据 与 训练 数据 集中 的 样本 进行 比 
较 , 选择 与 新 数据 最 相似 的 前 k 个 样本 的 类 标签 作为 


据 集 用 于 训练 词 向 量 及 LDA 主题 模型 。 选取 1 000 篇 
少 于 150 字 的 短文 本 构建 有 类 别 标注 的 小 规模 训练 数 
据 集 用 于 训练 最 近邻 分 类 器 ,数据 集 均衡 分 布 于 计算 
机 、 经 济 、 环 境 、 艺 术 、 体 育 5 个 领域 , 每 个 领域 各 
200 篇 .另外 选取 670 篇 短文 本 作为 测试 数据 集 ， 其 中 ， 
计算 机 类 145 篇 , 经济 类 130 篇 , 环境 类 135 篇 ,艺术 
类 120 篇 , 体育 类 140 篇 , 训练 集 和 测试 集 之 间 彼 此 不 
重合 , 不 包括 重复 文本 。 中 文 分 词 采 用 中 国 科 学 院 计 
算 技 术 研究 所 的 NLPIR 汉语 分 词 系 统 。 基 于 Word2Vec 
训练 词 向 量 , 依据 实验 经 验 设置 词 向 量 维 数 为 50， 当 
维 数 设 置 超过 50 时 实验 结果 无 明显 提升 。 基 于 吉 布 斯 
采样 方法 训练 LDA 主题 模型 , 依据 GibbsLDA++ 手 册 
设置 参数 户 ， 隐 含 主题 数 K 设置 为 100, 超 参 数 取 
a=0.5 、B=0.1, 主题 词 数 设置 为 20。 依据 实验 经 验 
设置 k-NN 分 类 器 的 近邻 数 k, 一 般 不 超过 训练 样本 数 
的 平方 根 ,， 取 k=20。 
4.2 评价 指标 

分 类 结果 用 准确 率 (Precision，PD 、 召 回 率 (Recall， 
Re) 和 调和 平均 值 F; 三 个 指标 来 衡量 ,公式 如 下 Ml。 


(18) 


TP 


Re= 一 一 
TP+FN 


(19) 


_ 2:Pr:Re 
Pr+ Re 


Fl (20) 


各 参数 含义 如 表 3 所 示 。 
表 3 分 类 评价 指标 参数 含义 表 
分 类 为 c 类 分 类 非 c 类 
实际 为 c 类 TP FN 
实际 非 c 类 FP TN 


新 数据 的 候选 类 标签 ， 最 后 统计 候选 类 标签 中 数量 最 
多 的 类 标签 作为 新 数据 的 分 类 结果 。 

本 文 方法 的 最 后 一 步 通过 构建 一 个 k-NN 分 类 央 ， 
以 建 模 后 的 短文 本 训练 集 与 待 分 类 短文 本 数据 作为 输 
入 , 使 用 余弦 相似 度 作为 新 数据 与 训练 集 样本 的 比 
较 函 数 ， 完成 对 新 数据 的 分 类 并 测试 本 文 方法 的 分 
类 效果 。 


4 实验 结果 及 分 析 


4.1 实验 设置 
采用 复旦 大 学 中 文 文本 分 类 语料库 作为 大 规模 数 
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其 中 , 准确 率 考 察 的 是 分 类 结果 的 正确 性 , 召回 
率 考察 分 类 结果 的 完备 性 。 
4.3 ”结果 与 分 析 

(1) 实验 一 

对 CBOW 模型 进行 修改 , 在 CBOW 模型 输入 层 
采用 向 量 拼接 法 代 蔡 向 量 相 加 平均 法 引入 词 序 信 息 ， 
然后 比较 Word2Vec 原版 的 CBOW 与 Skip-gram 以 及 
本 文 修改 后 的 CBOW 这 三 个 模型 训练 的 词 向 量 应 用 
于 本 文 分 类 方法 时 所 取得 的 分 类 效果 ， 比 较 结果 如 表 
4 所 示 。 
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表 4 词 向 量 训练 模型 比较 结 
词 向 量 训练 模型 准确 率 (%) ”召回 率 (%) Fl1 值 (%) 


Skip-gram 77.0 81.5 79;2 
原版 CBOW( 向 量 相 加 平均 ) 81.1 83.7 82.4 
修改 后 CBOW( 向 量 拼 接 ) 81.8 82.6 82.2 


从 表 4 可 以 看 出 : 在 短文 本 分 类 任务 上 , CBOW 
模型 优 于 Skip-gram 模型 ; 修改 后 的 CBOW 模型 相 比 
原 CBOW 模型 仅 在 分 类 准确 率 上 略 有 提升 ， 而 召回 率 
及 Fi 值 均 略 有 下 降 , 因此 认为 修改 后 的 CBOW 模型 相 
比 原 CBOW 模型 无 明显 差别 。 综 上 , 考虑 到 原 CBOW 
模型 计算 复杂 度 低 ， 因 此 本 文 方法 基于 原 CBOW 模型 
训练 词 向 量 。 

(2) 实验 二 

测试 本 文 方法 在 短文 本 分 类 任务 上 的 分 类 效果 ， 
并 与 三 种 基于 单一 模型 的 分 类 方法 (VSM+K-NN 、 词 回 
量 +k-NN、LDA+k-NN) 进 行 比较 , 结果 如 表 5、 表 6 
所 示 。 


表 5 本 文 方法 分 类 效果 


类 别 准确 率 (%) 召回 率 (%) Fl 值 (%) 
计算 机 85.3 87.1 86.2 
经 济 83.0 84.7 83.8 
环境 79.3 84.2 81.7 
艺术 78.3 80.6 79.4 
体育 79.4 82.0 80.7 
平均 值 81.1 83.7 82.4 


表 6 不 同 分 类 方法 比较 结果 


分 类 方法 准确 率 (%) ”召回 率 (%) Fl 值 (%) 
VSM+k-NN 74.7 77.2 75.9 
词 向 量 +k-NN 77.4 79.6 78.5 
LDA+k-NN 66.2 69.3 67.7 
本 文 方法 


、 1.1 83. 2.4 
( 词 向 量 +LDA+k-NN) 3 3 8 


表 5 显示 本 文 分 类 方法 在 短文 本 数据 集 各 个 领域 
类 别 均 能 获得 满意 的 分 类 效果 ,是 一 种 有 效 的 短文 本 
分 类 方法 。 表 6 显示 , 前 三 种 基于 单一 模型 的 分 类 方 
法 中 , 基于 LDA 模型 的 方法 分 类 效果 最 差 , 甚至 低 于 
传统 的 基于 词 袋 模 型 的 分 类 方法 , 表明 LDA 模型 并 不 
适用 于 短文 本 分 类 ; 与 三 种 基于 单一 模型 的 分 类 方法 
相 比 , 本文 方法 在 三 个 分 类 指标 上 均 有 提升 ， 其 中 分 
类 准确 率 指标 至 少 提升 3.7%， 召回 率 至 少 提 升 4.1%， 
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Fl 值 至 少 提 升 3.9%。 这 是 因为 方法 融合 词 向 量 与 LDA 
主题 模型 对 短文 本 进行 建 模 , 能 更 精细 地 表示 短文 本 
语义 信息 , 因此 有 效 克 服 了 单一 LDA 模 型 主题 聚焦 性 
差 的 缺陷 以 及 词 袋 模型 的 特征 稀 玻 问题 ,从 而 提高 短 
文本 分 类 效果 。 


S 结 语 


本 文 提 出 一 种 同时 从 “ 词 "粒度 及 “文本 ”粒度 层面 
建 模 短文 本 的 思路 , 并 由 此 提出 了 一 个 词 向 量 与 LDA 
相 融 合 的 短文 本 分 类 模型 。 另 外 , 该 分 类 方法 基于 无 
标注 数据 集 进 行 短文 本 建 模 , 属于 一 种 半 监 督学 习 方 
法 。 实 验 部 分 比较 了 该 方法 与 三 种 传统 基于 单一 模型 
方法 的 分 类 效果 ， 此 外 还 探讨 了 不 同 的 词 向 量 训练 模 
型 应 用 于 本 文 方法 时 的 优 劣 。 后 续 将 重点 研究 该 分 类 
方法 应 用 于 不 同 分 类 器 的 情况 。 
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Classifying Short Texts with Word Embedding and LDA Model 


Zhang Qun Wang Hongjun Wang Lunwen 
(Electronic Engineering Institute of PLA, Hefei 230037, China) 


Abstract: [Objective] This paper proposes a short text classification method with the help of word embedding and 
LDA model, aiming to address the topic-focus and feature sparsity issues. [Methods] First we built short text semantic 
models at the “word” and “text” levels. Second, we trained the word embedding with Word2 Vec and created a Short text 
vector at the “word’” level. Third, we trained the LDA model with Gibbs sampling, and then expanded the feature of 
short texts in accordance with the maximum LDA topic probability. Fourth, we calculated the weight of expanded 
features based on word embedding similarity to obtain Short text vector at the “text” level. Finally, we merged the 
“word” and “text” vectors to establish an integral short text vector and then generated their classification Scheme with 
the k-Nearest Neighbors classifier. [Results] Compared to the traditional singleton-based methods, the precision, recall, 
Fl of the new method were increased by 3.7%, 4.1% and 3.9%, respectively. [Limitations] Our method was only 
examined with the k-Nearest Neighbors classifier. More research is needed to study its performance with other 
classifiers. [Conclusions] The proposed method could effectively improve the performance of short text classification 
systems. 


Keywords: Short text classification Word embedding Latent Dirichlet Allocation k-Nearest Neighbors 


哈佛 大 学 图 书馆 选择 Ex Libris Alma 为 其 下 一 代 图 书馆 平台 


近日 ,哈佛 大 学 图 书馆 已 选择 Ex Libris Alma 图 书馆 管理 服务 作为 该 图 书馆 支持 研究 、 教 学 和 学 习 战 略 的 一 部 分 。 哈 佛 
大 学 是 第 33 个 选择 Alma 解决 方案 的 研究 图 书馆 协会 (Association of Research Libraries, ARL) 成 员 。 

凭借 其 统一 的 资源 管理 功能 、 高 级 工作 流程 、 强 大 的 基础 架构 和 云 平台 , Alma 解决 方案 将 帮助 哈佛 大 学 图 书馆 实现 在 整 
个 图 书馆 网 络 的 单一 框架 内 有 效 管理 印刷 和 在 线 馆 藏 的 目标 。 

哈佛 大 学 图 书馆 馆 长 Sarah Thomas 指出 :“ 哈 佛 大 学 图 书馆 的 战略 目标 之 一 是 通过 直观 的 发 现 系统 、 专 业 网 络 和 全 球 合 
作 ， 有 效 地 访问 知识 和 数据 世界 。Alma 是 一 个 强大 的 平台 , 其 强大 的 功能 、 易 用 性 和 云 服务 将 帮助 我 们 实现 直接 目标 以 及 长 
期 目标 。” 

Ex Libris 总 裁 Matti Shem Tov 评论 说 :“ 哈 佛 大 学 图 书馆 是 Ex Libris 的 长 期 合作 伙伴 , 其 自 2000 年 以 来 一 直 在 使 用 
Aleph ILS, 自 2014 年 以 来 一 直 使 用 Primo 的 发 现 和 交付 解决 方案 。 哈佛 大 学 图 书馆 采用 Alma 证 明了 Alma 为 全 球 顶 级 学 术 
机 构 的 图 书馆 提供 管理 服务 的 能 力 。 我 非常 高 兴 哈 佛 大 学 图 书馆 现在 加 入 了 Alma 社区 ,并 期 待 其 对 这 个 活跃 团体 的 贡献 。” 

(编译 自 : http://www.proquest.com/about/news/2016/Harvard-Library-Selects-the-Ex-Libris-Alma-Next-Generation-Library.htm]l) 
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